查看原文
其他

Large World Model (LWM) - 伯克利的大世界模型

renee创业狗 Renee 创业随笔
2024-10-09

今天看了篇paper,《World Model on Million-Length Video And Language With Blockwise RingAttention 》,是UC Berkeley进行的关于大世界模型的研究。

简介

Large World Model (LWM) 是一个通用的大上下文多模态自回归模型。它利用RingAttention在一个包含多样化长视频和书籍的大型数据集上进行训练,能够执行语言、图像和视频的理解与生成。

当前的语言模型在理解那些不容易用文字描述的世界方面有所不足,同时也难以处理复杂的、长篇的任务。视频序列提供了语言和静态图像中缺失的宝贵时间信息,使它们成为与语言联合建模的有吸引力的选择。这样的模型可以发展对人类文本知识和物理世界的理解,从而使AI在帮助人类方面的能力更加广泛。

然而,从数百万个视频和语言序列的标记中学习,由于内存限制、计算复杂性和数据集有限,面临着挑战。为了解决这些挑战,这个团队整合了一个大型的多样化视频和书籍数据集,利用Blockwise RingAttention技术可扩展地训练长序列,并逐渐将上下文大小从4K增加到1M标记。

LWM功能

  • LWM能够在超过1M标记的上下文中准确检索事实。
  • LWM能够回答超过1小时YouTube视频中的问题。
  • LWM能够结合图像进行交流。
  • LWM能够从文本生成视频和图像。

Large World Model 训练说明

此图示展示了Large World Model的多模态训练过程:

  • 第一阶段,即LLM上下文扩展,重点是使用Books3数据集扩大上下文大小,从32K增加到1M。
  • 第二阶段,视觉-语言训练,专注于对不同长度的视觉和视频内容进行训练。

饼图详细展示了在图像、短视频和长视频中分配的495B个标记,以及33B个文本数据标记的分布。下方的面板展示了在理解和响应关于复杂多模态世界的查询方面的交互能力。

更多结果(含对比)

LWM回答YouTube视频中的问题

从文本生成图像

从文本生成视频

  • A ball thown in the air

  • Slow motion flower petals falling on the ground

  • A burning campire in a forest

  • A boat sailing on a stormy ocean

继续滑动看下一个
Renee 创业随笔
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存